查看原文
其他

微软 GAIA:ZERO-SHOT的对口型单张图生成视频技术

renee创业狗 Renee 创业随笔
2024-10-09

微软上个月底发布了一篇论文,《GAIA: ZERO-SHOT TALKING AVATAR GENERATION》,是微软的对口型视频生成技术。论文在这里:https://arxiv.org/abs/2311.15230。

Demo和Code的网站目前无法访问,可以看一些示例:

工作原理

GAIA的工作原理如下图所示:

GAIA由VAE(Variational Autoencoder)和diffusion模型组成。VAE用于将每个视频帧编码成一个解缠绕的表示(即运动和外观表示),并从这个解缠绕的表示重构出原始帧。然后,diffusion模型被优化,以生成在语音序列和视频剪辑中的随机帧条件下的运动序列。在推理过程中,扩散模型以输入的语音序列和参考肖像图像作为条件,产生运动序列,然后利用VAE的解码器将其解码成视频。

效果展示

GAIA与最先进的基于语音的方法进行了定性比较。结果显示,GAIA在自然度、嘴唇同步质量、视觉质量和运动多样性方面均表现出更高的水平。相比之下,其他基线方法往往过于依赖参考图像,因此容易生成轻微运动(例如,当参考图像的眼睛闭合时,大多数基线方法生成闭眼的结果)或不准确的嘴唇同步。

与其他技术的比较

以下是GAIA与其他技术的比较:

  • 自然度:GAIA胜出,生成的视频更加自然。
  • 嘴唇同步质量:GAIA优于其他技术,嘴唇的运动与语音更为匹配。
  • 视觉质量:GAIA的视觉质量更高,细节更加清晰。
  • 运动多样性:GAIA在运动多样性方面表现出色,生成的视频更富有生动感。

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存